PPT+视频回放 | 《语音识别引擎后端架构设计》58同城AI Lab后端架构师,王焱
http://knothacker.aicug.cn/all-slides
Q: 轮询是直接用TCP协议吗?
A: 如果是采用HTTP或者RPC请求,传输层都是tcp协议。当然也可以选择UDP协议。
Q: 8K语音可以升采样到16K,再用16K模型识别吗?
A: 可以,目前我们电话的场景就是8k的语音,上采样到16k,用16k模型来训练和识别的。
Q: 实时语音转写服务时延是怎么控制的?
A: 整个系统的时延控制,需要了解系统的瓶颈在哪里,我们开发系统的时候,一般通过经验已经知道大概的瓶颈在哪里,通过压测的方式,可以知道详细的数据。实时语音转写的瓶颈主要在实时解码服务中,如果提高解码服务吞吐能力,就只能从优化解码效率,或者水平扩展增加服务部署来解决。
Q: 音频流中每一个音频块时长是多少,每个音频块都会识别出一段话吗,这样的话lattice搜索路径会受到影响吗?
A: 音频快时长和并发的耗时没有关系,理论上音频块大小多少都可以,目前我们默认100ms的时长。每个音频块不一定有人声的部分,也不一定有转写的结果。lattice的搜索路径随着音频块的输入是一直在调整的。
Q: lattice选取具体怎么优化?
A: 我们优化是减少了把音频特征再加入lattice中的耗时,取结果时直接从网络中找这条最优路径。
Q: 语音前处理,对降噪吗?识别结果后处理需要纠错吗?
A: 目前没有专门做降噪预处理,我们是电话近场的场景,大部分情况下都是比较清晰的,如果做降噪的话,可能效果上提升也不会太大。后处理的部分,针对我们的业务场景,目前没有做纠错,只是添加标点。
Q: 保证实时率稳定与内存的占用低有什么好的优化措施?
A: 语音转写的处理,不但是内存占用,还有cpu/gpu的使用率等,语音转写的处理能力和业务上对时延的要求应该取一个折中的方案。一般我们实时率对于一定的解码器都能有一个最优的值。
Q: 嵌入式语音识别有什么方案推荐呢?
A: 目前应该有语音识别专业的芯片,或者自己移植开发一套语音识别系统,或者只实现联网连接功能,把语音识别作为云端服务。
Q: 请问有准备上线端到端语音识别系统吗?
A: 模型已经在训练中,识别效果不错,下一步会上线端到端识别。
文章介绍:
欢迎关注部门微信公众号:58AILab
欢迎在欣秀(https://app.ic3i.com)平台上加入"58同城AILab技术沙龙"圈子,一起交流技术,可以扫描以下二维码加入该圈子。